BiU Statistik im WiSe 2025/26
Ein Cheatsheet
Methodology: The Science before Statistics
Jede statistische Modellierung gewinnt an Aussagekraft, je umfassender sie die inhaltliche Fragestellung abzubilden im Stande ist. Um aus der riesigen Fülle an Optionen geeignet und zielgerichtet auswählen zu können sind die folgenden Unterscheidungen oft sehr hilfreich.
Erkenntnisinteressen
Ganz grundlegend kann a priori das Erkenntnisinteresse von Studien in die folgenden vier Kategorien unterschieden werden:
| Deskriptiv | Explorativ | Explanativ | Prädiktiv |
|---|---|---|---|
| populationsbeschreibend | hypothesengenerierend | hypothesenprüfend | Datenpunkte vorhersagend oder imputierend |
| Bei welchem Anteil 15-Jähriger in Deutschland handelt es sich um funktionale Analphabet:innen? | Was sind potentielle Ursachen für genderbezogene Disparitäten im Analphabetismus? | Sind 15-jährige Jungen häufiger Analphabeten als 15-jährige Mädchen? | Mit welchen Variablen können Schüler:innen at risk erfolgreich identifiziert werden? |
Gütekriterien wiss. Erkenntnis nach Campbell (1957)
Für ein erfolgreiches Studiendesign und die anschließende statistische Analyse ist es sehr wertvoll sich vorab über Schwerpunkte besonders gewünschter Aspekte wissenschaftlicher Güte Gedanken zu machen. Insbesondere über die Unterkriterien Methodischer Strenge:
- Konstruktvalidität (Inwiefern ist die Interpretation der Messwerte angemessen?)
- Interne Validität (Inwiefern sind Assoziationen von unabhängiger [beeinflussender] und abhängiger [beeinflusster] Variabler als kausale Effekte interpretierbar?)
- Externe Validität (Inwiefern können die Schlussfolgerungen der Studie verallgemeinert werden?)
- Statistische Validität (Wie robust und angemessen sind die verwendeten statistischen Verfahren?)
Steigerung von interner und externer Validität
Zur Steigerung der internen Validität eignen sich insbesondere:
- Die Randomisierung der unabhängigen Variablen
- Kontroll- und Vergleichsgruppen
- Längsschnittliche Designs
- Statistische Kontrolle von Störvariablen (z.B. Matching)
- Direkte Replikationen
- Laborstudien
- (Doppelte) Verblindung
- Präregistrerung
Zur Steigerung der externen Validität eignen sich insbesondere:
- Zufallsstichproben aus der Zielpopulation
- Gewichtungen
- Konzeptuelle Replikationen
- Feldstudien
- Metaanalysen
Messtheorie
Skalenniveaus
Statistische Berechnungen haben unterschiedliche Voraussetzungen an die Interpretierbarkeit von numerisch enkodierten Variablen. So hat sich die Unterscheidung der folgenden Skalenniveaus (Döring und Bortz 2016)etabliert:
- Nominal skalierte Variablen: Dieses Variablenniveau liegt vor, wenn allein Gleichheit und Ungleichheit von Datenpunkiten unterschieden werden kann (z.B. Spezies, Sex, Nationalität).
- Ordinal skalierte Variablen: Dieses Variablenniveau liegt vor, wenn neben der Gleichheit zudem eine Ordnung in Datenpunkten generiert werden kann (z.B. Entwicklungsstadien, Schulabschlüsse).
- Intervallskalierte Variablen: Dieses Variablenniveau liegt vor, wenn neben der Gleichheit und der Ordnung von Datenpunkten zudem deren Abstand sinnvoll interpretiert werden kann (z.B. Temperatur, Gewicht).
Aufgabe Skalenniveau erkennen
Kausalrelationierung
Je nachdem ob eine Variable als Ursache, Wirkung oder beides in einem kausalen System angenommen wird erhalten sie in der Statistik unterschiedliche Bezeichnungen (Döring und Bortz 2016):
- Unabhängige Variable (UV, independet variable): Variable, die als Ursache in einem kausalen System angenommen wird.
- Abhängige Variable (AV, dependet variable): Variable, die als Wirkung in einem kausalen System angenommen wird.
- Mediatorvariable (MeV, mediator): Variable, die sowohl UV als auch AV darstellt.
- Moderatorvariable (MoV, moderator): Variable, die einen Einfluss beeinflusst.
- Störvariable (UV, confounder): Variable, die sowohl UV als auch AV beeinflusst und somit eine Scheinkorrelation erzeugen kann.
Aufgabe Kausalrelationierung erkennen
Univariate Deskriptivstatistik
Maße der zentralen Tendenz
Maße der zentralen Tendenz geben Auskunft über den typischen Wert einer Verteilung. Die drei wichtigsten Maße sind:
Das arithmetische Mittel ist ein Maß der zentralen Tendenz von intervallskalierten Variablen. Wenn \(X = \{x_1, x_2, ..., x_n\}\) eine empirische Variable (= Datenreihe darstellt) ist das arithmetische Mittel \(\bar x\) als »Durchschnitt« definiert: \[\bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i}\]
In R kann das arithmetische Mittel mit der Funktion mean() berechnet werden. Berechnen Sie im folgenden Codefenster das arithmetische Mittel der Zahlen 1 bis 5.
Einen Vector mit den Zahlen 1 bis 5 können Sie in R mit der Funktion c(1, 2, 3, 4, 5) erstellen. Die Funktion mean() berechnet das arithmetische Mittel eines Vectors.
Der Median ist ein Maß der zentrale Tendenz von nominalen, ordinalen und intervallskalierten Variablen. Man erhält ihn, indem man alle Datenpunkte der Größe nach ordnet und dann den Wert in der Mitte nimmt. Ist die Anzahl der Datenpunkte eine gerade Zahl, entspricht der Median dem arithm. Mittel der beiden mittleren Werte. \[\widetilde{x}= \begin{cases} x_{m+1} & \text{für ungerades }n = 2m + 1 \\ \frac{1}{2}(x_m + x_{m+1}) & \text{für gerades }n = 2m \\ \end{cases}\]
Der Modus ist ein Maß der zentrale Tendenz von nominalen, ordinalen und intervallskalierten Variablen. Er entspricht dem am häufigsten vorkommenden Wert in einer Verteilung.
Übungen
Aufgabe Median berechnen I
Aufgabe Median berechnen II
Maße der Dispersion (Streuung)
Mean Average Deviation
Die Mean Average Deviation (MAD) ist ein Streuungsmaß, das die durchschnittliche absolute Abweichung der Datenpunkte vom arithmetischen Mittel angibt. Für eine empirische Variable \(X = \{x_1, x_2, ..., x_n\}\) wird die MAD wie folgt berechnet: \[\text{MeanAD} = \frac{1}{n} \sum_{i=1}^{n} |x_i - \bar{x}|\] Die MeanAD kann in R mit der Funktion MeanAD() aus dem Paket DescTools berechnet werden.
Eine Gruppe Forschender erfasst die Zustimmung zur Aussage »Modern science will solve our environmental problems with little change to our way of life.« auf einer Skala von 1 = Agree strongly bis 20 = Disagree strongly und erhält die Datenreihe \(x = 13, 4, 14, 4, 10\). Das arithmetische Mittel dieser Datenreihe ist \(\bar{x}= 9\). Die MeanAD wird wie folgt berechnet:
\[\text{MeanAD} = \frac{1}{5} (|13-9| + |4-9| + |14-9| + |4-9| + |10-9|) = \] \[= \frac{1}{5} (4 + 5 + 5 + 5 + 1) = \frac{20}{5} = 4\]
Varianz und Standardabweichung
Die Varianz ist ein Streuungsmaß, das die durchschnittliche quadrierte Abweichung der Datenpunkte vom arithmetischen Mittel angibt. Für eine empirische Variable \(X = \{x_1, x_2, ..., x_n\}\) wird die Varianz wie folgt berechnet: \[s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2\] Die Standardabweichung ist die Quadratwurzel der Varianz und wird wie folgt berechnet: \[s = \sqrt{s^2}\] Die Varianz und Standardabweichung können in R mit den Funktionen var() und sd() berechnet werden.
Eine Gruppe Forschender erfasst die Zustimmung zur Aussage »Modern science will solve our environmental problems with little change to our way of life.« auf einer Skala von 1 = Agree strongly bis 20 = Disagree strongly und erhält die Datenreihe \(x = 13, 4, 14, 4, 10\). Das arithmetische Mittel dieser Datenreihe ist \(\bar{x}= 9\). Die Varianz wird wie folgt berechnet: \[s^2 = \frac{1}{5-1} ((13-9)^2 + (4-9)^2 + (14-9)^2 + (4-9)^2 + (10-9)^2) = \] \[= \frac{1}{4} (16 + 25 + 25 + 25 + 1) = \frac{92}{4} = 23\] Die Standardabweichung ist dann: \[s = \sqrt{23} \approx 4.8\]
Modalität
Mit Modalität wird die »Vielgipflichkeit« einer Verteilung bezeichnet. Die Modi entsprechen oftmals in den Daten enthaltenen Subgruppen (Eid, Gollwitzer, und Schmitt 2013).
Schiefe
Die Verteilung einer (unimodalen) intervallskalierten Variable ist schief, wenn die Streuungen der oberen/unteren Hälfte unterschiedlich sind (von Hippel 2005).
Kurtosis
Die Kurtosis beschreibt die »Schmal- oder Breitgipfligkeit« einer (unimodalen) Verteilung.
Grafische Darstellung univariater Verteilungen
Aufgaben
Aufgabe Mean aus Grafik schätzen
Aufgabe Mean Average Deviation aus Grafik schätzen
Einfache lineare Regression
Ein lineares Modell beschreibt die Beziehung zwischen einer abhängigen Variable \(y\) und einer unabhängiger \(x\) Variablen.
Geometrische Repräsentation
Oftmals wird die lineare Regression zunächst geometrisch eingeführt:
Algebraische Notation
Man kann die einfache lineare Regression auch algebraisch darstellen. In der einfachsten Form wird die abhängige Variable Pro-Environmental Behaviour durch eine unabhängige Variable Climate Anxiety erklärt:
\[\text{Pro-Environmental Behaviour}_i = b_0 + b_1 \cdot \text{Climate Anxiety}_i + \varepsilon_i\]
Dabei kann dann b_0 als Achsenabschnitt und b_1 als Steigung der Regressionsgeraden interpretiert werden:
b_0: Der erwartete Wert derPro-Environmental Behaviour, wennClimate Anxietygleich 0 ist.b_1: Die erwartete Differenz in derPro-Environmental Behaviourzweier gruppen, die sich inClimate Anxietyum eine Einheit unterscheiden
Stochastische Notation
Während die sowohl die geometrische Repräsentation als auch die algebraische Notation das Modell mit seinen zu bestimmenden Parametern beschrieben, betont die stochastische Schreibweise den Prozess, durch den die Daten generiert werden
\[\text{Pro-Environmental Behaviour} \sim \mathcal{N}\left(b_0 + b_1 \cdot \text{Climate Anxiety}, \sigma^2\right)\]
In der stochastischen Notation wird angenommen, dass die abhängige Variable Pro-Environmental Behaviour für jede Climate Anxiety-Subgruppe einer Normalverteilung folgt, die Variable als Gesamtes jedoch nicht unbedingt. Zudem ist in der Notation bereits die Annahme der Homoskedastizität (konstante Varianz enthalten: Die Streuung der der Pro-Environmental Behaviour-Werte ist für alle Climate Anxiety-Subgruppen gleich (\(\sigma^2\)).
Standardisierte Regression
Die Steigung einer einfachen linearen regression hängt von der Maßeinheit der abhängigen udn unabhängigen Variable ab. Um diese Abhängigkeit zu eliminieren können sowohl die abhängige als auch die unabhängige Variable standardisiert werden. In der standardisierten Regression entspricht die Steigung b_1 dann der erwarteten Differenz in Standardabweichungen der abhängigen Variable, wenn sich die unabhängige Variable um eine Standardabweichung ändert. Das entspricht exakt der sogenannten Pearson-Korrelation \(r\), wie in dieser interaktiven Applikation verdeutlicht wird.